Главная arrow книги arrow Копия Глава 17. Принятие сложных решений arrow Библиографические и исторические заметки
Библиографические и исторические заметки

В [47] впервые было показано, что задачи MDP в частично наблюдаемой среде могут быть преобразованы в обычные задачи MDP с использованием доверительных состояний. Первый полный алгоритм точного решения для марковских процессов принятия решений в частично наблюдаемой среде (Partially-Observable Markov Decision Process— POMDP) был предложен Эдвардом Сондиком [1446] в его докторской диссертации (опубликованная позднее журнальная статья Смоллвуда и Сондика [1433] содержит некоторые ошибки, но является более доступной). В [946] приведен обзор состояния разработок в области решения задач POMDP. Первым значительным вкладом в рамках искусственного интеллекта был алгоритм Witness [227], [758] — усовершенствованная версия алгоритма итерации по значениям, применяемого для решения задач POMDP. Вслед за ним вскоре были разработаны другие алгоритмы, в том числе основанные на подходе, предложенном Хансеном [612], который предусматривает инкрементное определение стратегии с помощью конечного автомата. В представлении стратегии с помощью конечного автомата доверительные состояния непосредственно соответствуют конкретным состояниям автомата. Приближенно оптимальные стратегии для задач POMDP могут формироваться с помощью прямого поиска, применяемого в сочетании с формированием выборок из возможных результатов наблюдений и действий [784], [1134]. Другие результаты исследований в области алгоритмов POMDP описаны в главе 21.

Основные идеи по созданию архитектуры агента с использованием динамических сетей принятия решений были предложены в [360]. В книге Planning and Control Дина и Уэллмана [363] этот подход развит намного глубже и установлена связь между моделями DBN/DDN и классической литературой теории управления, посвященной вопросам фильтрации. Татмен и Шахтер [1497] показали, как применять алгоритмы динамического программирования к моделям DDN. В [1325] описаны различные способы обеспечения применения таких агентов в более широких масштабах и указан ряд нерешенных исследовательских проблем.

Корни теории игр можно проследить до предложений по изучению конкурентных и кооперативных взаимодействий людей с помощью научного и математического подхода, которые были выдвинуты еще в XVII столетии Христианом Гюйгенсом и Готфридом Лейбницем. На протяжении XIX столетия некоторые ведущие экономисты создавали простые математические модели для анализа конкретных примеров конкурентных ситуаций. Первые формальные результаты в области теории игр принадлежат Цермело [1641], который за год до этого предложил некоторую форму минимаксного поиска для игр, хотя и неправильную. Эмиль Борель [152] ввел понятие смешанной стратегии. Джон фон Нейман [1545] доказал, что любая игра с двумя участниками и нулевой суммой имеет максиминное равновесие в смешанных стратегиях и полностью определенное значение. Сотрудничество Джона фон Неймана с экономистом Оскаром Моргенштерном привело к публикации в 1944 году книги Theory of Games and Economic Behavior (Теория игр и экономического поведения) [1546], которая сыграла решающую роль в создании теории игр. Публикация этой книги задерживалась из-за нехватки бумаги во время войны до тех пор, пока один из членов семейства Рокфеллеров не субсидировал публикацию.